Một mô hình ngôn ngữ lớn có thể tạo ra ngôn ngữ một cách trôi chảy, nhưng khả năng trôi chảy không đồng nghĩa với độ tin cậy về mặt sự thật. Hạn chế cơ bản của một mô hình ngôn ngữ lớn là sự phụ thuộc vào bộ nhớ tham số—kiến thức bị đóng băng tại thời điểm quá trình huấn luyện kết thúc, được gọi là mốc đào tạo.
Tại sao các mô hình ngôn ngữ lớn thất bại khi hoạt động độc lập
RAG tồn tại vì nhiều câu hỏi thực tế phụ thuộc vào thông tin mà là riêng tư, mới nhất, được phiên bản hóa, cụ thể theo lĩnh vực, hoặc có thể kiểm tra được. Thiếu kiến thức bên ngoài, mô hình sẽ gặp phải:
- Hạn chế về thời gian: Không thể biết được các sự kiện xảy ra sau khi huấn luyện.
- Hạn chế truy cập: Không thể tiếp cận "dữ liệu tối" (tài liệu doanh nghiệp riêng tư).
- Hạn chế khả năng truy vết: Thiếu đường đi có thể kiểm toán để đảm bảo trách nhiệm chuyên môn.
Thái độ mở sách
Thay vì buộc mô hình phải 'nhớ' mọi thứ thông qua việc huấn luyện lại tốn kém, chúng ta chuyển đổi kiến trúc để trước tiên truy xuất bằng chứng cụ thể từ một tập hợp tài liệu bên ngoài, cho phép mô hình ngôn ngữ lớn trả lời dựa trên bằng chứng đó. Điều này mang lại sự tự tin dựa trên bằng chứng thay vì sự tự tin mà không có bằng chứng.